Autoregressive language modeling (ALM) have been successfully used in self-supervised pre-training in Natural language processing (NLP). However, this paradigm has not achieved comparable results with other self-supervised approach in computer vision (e.g., contrastive learning, mask image modeling). In this paper, we try to find the reason why autoregressive modeling does not work well on vision tasks. To tackle this problem, we fully analyze the limitation of visual autoregressive methods and proposed a novel stochastic autoregressive image modeling (named SAIM) by the two simple designs. First, we employ stochastic permutation strategy to generate effective and robust image context which is critical for vision tasks. Second, we create a parallel encoder-decoder training process in which the encoder serves a similar role to the standard vision transformer focus on learning the whole contextual information, and meanwhile the decoder predicts the content of the current position, so that the encoder and decoder can reinforce each other. By introducing stochastic prediction and the parallel encoder-decoder, SAIM significantly improve the performance of autoregressive image modeling. Our method achieves the best accuracy (83.9%) on the vanilla ViT-Base model among methods using only ImageNet-1K data. Transfer performance in downstream tasks also show that our model achieves competitive performance.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.
translated by 谷歌翻译
链接预测的任务旨在解决由于难以从现实世界中收集事实而引起的不完整知识的问题。基于GCN的模型由于其复杂性而广泛应用于解决链接预测问题,但基于GCN的模型在结构和培训过程中遇到了两个问题。 1)GCN层的转化方法在基于GCN的知识表示模型中变得越来越复杂; 2)由于知识图收集过程的不完整,标记为负样本中有许多未收集的真实事实。因此,本文研究了相邻节点的信息聚合系数(自我注意)的特征,并重新设计了GAT结构的自我注意力。同时,受到人类思维习惯的启发,我们在预训练的模型上设计了一种半监督的自训练方法。基准数据集FB15K-237和WN18RR上的实验结果表明,我们提出的自我发项机制和半监督的自我训练方法可以有效地提高链接预测任务的性能。例如,如果您查看FB15K-237,则建议的方法将@1的命中率提高了约30%。
translated by 谷歌翻译
社会影响力预测已经渗透到许多领域,包括营销,行为预测,推荐系统等。但是,预测社会影响力的传统方法不仅需要领域专业知识,而且还依赖于提取用户功能,这可能非常乏味。此外,处理非欧几里得空间中的图形数据的图形卷积网络(GCN)并不直接适用于欧几里得空间。为了克服这些问题,我们扩展了DeepInf,以便它可以通过页面排名域的过渡概率来预测Covid-19的社会影响。此外,我们的实施产生了一种基于学习的个性化传播算法,称为DEEPPP。所得算法将神经预测模型的个性化传播与页面级分析中神经预测模型的近似个性化传播相结合。来自不同领域的四个社交网络以及两个COVID-19数据集用于证明拟议算法的效率和有效性。与其他基线方法相比,DEEPPP提供了更准确的社会影响预测。此外,实验表明DEEPPP可以应用于COVID-19的现实世界预测数据。
translated by 谷歌翻译
基于内部语言模型估计(ILME)语言模型(LM)融合已显示出明显改善的识别结果,而识别域内和跨域语音识别任务的常规浅融合。在本文中,我们试图将ILME方法应用于跨域代码转换语音识别(CSSR)工作。具体而言,我们的好奇心来自几个方面。首先,我们很好奇基于ILME的LM融合对内域和跨域CSSR任务的有效性。我们在不合并两个代码转换域的情况下对此进行验证。更重要的是,我们通过合并两个单语言数据集训练端到端(E2E)语音识别模型,并观察到拟议的基于ILME的LM Fusion对CSSR的功效。来自东南亚和另一个中国大陆CS数据集的SEAME的实验结果证明了拟议的基于ILME的LM融合方法的有效性。
translated by 谷歌翻译
开放式综合分割(OPS)问题是一个新的研究方向,旨在对\已知类别和\未知类进行细分,即在培训集中从未注释的对象(“事物”)。 OPS的主要挑战是双重的:(1)\未知物体出现的无限可能性使得很难从有限数量的培训数据中对其进行建模。 (2)在培训时,我们仅提供“空白”类别,该类别实质上将“未知事物”和“背景”类混合在一起。我们从经验上发现,直接使用“ void”类别监督\已知类别或“背景”而不筛选的“背景”不会导致满足的OPS结果。在本文中,我们提出了一个分裂和争议计划,以制定OPS的两阶段决策过程。我们表明,通过将\已知的类别歧视器与其他类别的对象预测头正确相结合,可以显着提高OPS性能。具体而言,我们首先建议创建一个仅具有\已知类别的分类器,并让“ void”类建议从这些类别中实现较低的预测概率。然后,我们使用其他对象预测头将“未知事物”与背景区分开。为了进一步提高性能,我们介绍了从最新模型产生的“未知事物”伪标签,以及丰富训练集的启发式规则。我们广泛的实验评估表明,我们的方法显着提高了\未知的类圆形质量,比现有最佳表现最佳方法的相对改进超过30 \%。
translated by 谷歌翻译
非主导的分类遗传算法II(NSGA-II)是现实应用中最强烈使用的多目标进化算法(MOEA)。然而,与几个通过数学手段分析的几个简单的MOES相反,到目前为止,NSGA-II也不存在这种研究。在这项工作中,我们表明,数学运行时分析也可用于NSGA-II。结果,我们证明,由于持续因素大于帕累托前方大小的人口大小,具有两个经典突变算子的NSGA-II和三种不同的选择父母的方式满足与Semo和GSEMO相同的渐近运行时保证基本ineminmax和Lotz基准函数的算法。但是,如果人口大小仅等于帕累托前面的大小,那么NSGA-II就无法有效地计算完整的帕累托前部(对于指数迭代,人口总是错过帕累托前部的恒定分数) 。我们的实验证实了上述研究结果。
translated by 谷歌翻译
卷积神经网络(CNN)已在许多物联网(IoT)设备中应用于多种下游任务。但是,随着边缘设备上的数据量的增加,CNN几乎无法及时完成某些任务,而计算和存储资源有限。最近,过滤器修剪被认为是压缩和加速CNN的有效技术,但是从压缩高维张量的角度来看,现有的方法很少是修剪CNN。在本文中,我们提出了一种新颖的理论,可以在三维张量中找到冗余信息,即量化特征图(QSFM)之间的相似性,并利用该理论来指导滤波器修剪过程。我们在数据集(CIFAR-10,CIFAR-100和ILSVRC-12)上执行QSFM和Edge设备,证明所提出的方法可以在神经网络中找到冗余信息,具有可比的压缩和可耐受的准确性下降。没有任何微调操作,QSFM可以显着压缩CIFAR-56(48.7%的Flops和57.9%的参数),而TOP-1的准确性仅损失0.54%。对于边缘设备的实际应用,QSFM可以将Mobilenet-V2推理速度加速1.53倍,而ILSVRC-12 TOP-1的精度仅损失1.23%。
translated by 谷歌翻译
重量衰减通常用于确保具有批归归量的深神经网络的训练实践中的良好概括(BN-DNNS),在该训练中,由于归一化,某些卷积层对于重量重新恢复是不变的。在本文中,我们证明了重量衰减的实际用法仍然存在一些未解决的问题,尽管现有的理论工作在解释BN-DNNS中体重衰减的影响方面。一方面,当非自适应学习率例如使用动量的SGD,即使在初始训练阶段,有效学习率也会继续增加,从而导致许多神经体系结构的过度拟合效果。另一方面,在SGDM和自适应学习率优化器中,例如亚当,体重衰减对概括的影响对超参数非常敏感。因此,找到最佳的重量衰减参数需要广泛的参数搜索。为了解决这些弱点,我们建议使用简单而有效的重量重新缩放(WRS)方案来规范重量规范,以替代体重衰减。 WRS通过将重量标准明确地重新定为单位规范来控制重量规范,从而防止梯度增加,但也确保了足够大的有效学习率以提高概括。在各种计算机视觉应用程序中,包括图像分类,对象检测,语义细分和人群计数,我们与重量衰减,隐含重量重新缩放(重量标准化)和梯度投影(ADAMP)相比,显示了WR的有效性和鲁棒性。
translated by 谷歌翻译